以共現資訊為基礎增進中學英漢翻譯試題與解答之詞彙對列 (Using Co-Occurrence Information to Improve Chinese-English Word Alignment in Translation Test Items for High School Students) [In Chinese]
نویسندگان
چکیده
本文探討我國中學程度翻譯試題的中文試題與英文解答的詞彙對列問題。我們先利用漢 英字典作為基礎,找尋互為翻譯的漢英詞對;然後利用未被對列的剩餘詞彙之間的共現 關係,以五種過去在文獻中探索過的計分方式,來尋找與界定更多的互譯詞彙組合。在 超過 17,000 道試題為基礎的測試中,我們以人工檢視計分機制給予高分的部分對列詞 彙的正確性。實驗結果顯示,進一步利用未對列詞彙的方法,可以把對列成果的 F measure 從 76.9%提高到 83.7%。 Abstract We study the word alignment between the Chinese problems and the English answers for the English-Chinese translation tests at the high school level in Taiwan. After applying a dictionary-based approach, we attempted to take advantage of the information about co-occurrence of unaligned words to find more translation pairs. We explored five scoring methods that were previously proposed in the literature. We ran our experiments with more than 17,000 test items, and checked the aligned word pairs that were assigned high scores. Experimental results showed that we could improve the F measure for the alignment task from 76.9% to 83.7% with the best performing scoring method.
منابع مشابه
以語料為基礎的中文語篇連貫關係自動標記 (Corpus-Based Coherence Relation Tagging in Chinese Discourse) [In Chinese]
近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (The-saurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可抵擋的趨勢。其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利用之一項詞彙語意資源。然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯頓英語詞網(Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrap-ping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實驗的結果與初步評估證明, 此法...
متن کامل大規模詞彙語意關係自動標示之初步研究: 以中文詞網(Chinese Wordnet)為例 (A Preliminary Study on Large-scale Automatic Labeling of Lexical Semantic Relations: A Case study of Chinese Wordnet) [In Chinese]
近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。 對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (Thesaurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可 抵擋的趨勢。 其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利 用之一項詞彙語意資源。 然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使 用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯 頓英語詞網 (Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrapping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實 驗的結果與初步評估證明, 此法對於詞網建構是一個相當可行的方式。
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل以範例為基礎之英漢TIMSS詴題輔助翻譯 (Example Based Machine Translation of TIMSS Test Items) [In Chinese]
國際教育學習成就調查委員會(The International Association for the Evaluation of Education Achievement, 以下簡稱 IEA)[20]主要目的在於了解各國學生數學及科學(含物理、化 學、生物、及地球科學)方面學習成就、教育環境等,影響學生的因素,找出關聯性, 並在國際間相互作比較。自 1970 年起開始第一次國際數學與科學教育成就調查後,世 界各國逐漸對國際數學與科學教育成就研究感到興趣,IEA 便在 1995 年開始每四年辦 理國際數學與科學教育成就研究一次,稱為國際數學與科學教育成就趨勢調查(Trends in International Mathematics and Science Study,以下簡稱 TIMSS ),至今已辦理過 1995、 1999、2003 和 2007 共四屆,共有 38 個國家參加。
متن کامل主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]
本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2010